Reference: Framing
Google這邊的Machine learning有特別強調是Supervised machine learning,因為這邊的dataset都有個正確答案讓Machine learning參考。
除此之外還有: Unsupervised learning(沒給正確答案,卻要你去把資料歸類的), Reinforcement learning(透過觀察資料逐步修正的學習方式)
之後會使用到一些術語,讓我分別列在下面:
Labels
我們要預測的東西y
,可能是錢、可能是true或false、或其他想預測的項目
Features
供給預測所需的欄位,通常用x表達,它是個向量形式,代表x1, x2, x3, ..., xn,每個都是一個feature,你可以只餵某個feature給Machine learning去預測y
,也可以一次給很多個features去預測y
。
如果要預測的是 是不是垃圾郵件,feature可能就包含寄件地址、內文、發信時間等等。
Examples
可分成Labeled examples、Unlabeled examples,Labeled examples是已知label並把它們丟進machine learning去訓練出一個model用的;而UnLabeled examples則是沒有label,要丟到model去預測出一個prediction的。
labeled examples: {features, label}: (x, y)
housingMedianAge(feature) | totalRooms(feature) | medianHouseValue(label) |
---|
15|5610|66900
19|7650|80100
17|720|85700
14|1501|73400
20|1454|65500
unlabeled examples: {features, ?}: (x, ?)
<< 沒有y
or label
housingMedianAge(feature) | totalRooms(feature) |
---|
42|1686
34|1226
33|1077
Model
Train出feature與label之間的關係,並進一步去推測unlabeled examples的預測值y'
。
以上的術語會在之後的文章瘋狂出現,也會在之後的code裡當成naming convention。別忘了做課後習題,去驗證是不是真的理解這些名詞。
很像重新整理選項順序就會不一樣,就不把答案寫在這了
(好吧 就算沒選項,也可以看看上面的術語,腦裡自己激盪一下)題目1: 針對檢查是否是垃圾信件,哪個敘述是對的?
題目2: 要對使用者買鞋做預測,哪個敘述是對的?
今天的內容就到這邊為止。